메뉴

#오푸스 4.7

SG
r/singularity 29일 전
IMP 8

ARC-AGI-3 벤치마크 업데이트 (GPT-5.5, 오푸스 4.7)

최신 AI 모델들의 추론 능력을 평가하는 난이도 높은 벤치마크인 ARC-AGI-3에서 GPT-5.5가 0.43%, 오푸스(Opus) 4.7이 0.18%의 매우 낮은 성적을 기록했습니다. 이는 해당 테스트가 현재 AI의 한계를 시험하는 매우 까다로운 과제임을 보여줍니다. 업계에서는 과연 어떤 모델이 이 벽을 깨고 문제를 풀어낼지 큰 관심을 보이고 있습니다.

ARC-AGI-3 GPT-5.5 오푸스 4.7
SG
r/singularity 44일 전
IMP 6

클로드 오푸스 4.7, 벤치마크서 4.6보다 성능 역행

클로드 오푸스 4.7이 '주제 일반화 벤치마크(Thematic Generalization Benchmark)' 테스트에서 예상과 달리 이전 버전인 4.6보다 낮은 점수를 기록했습니다. 모델이 제시된 예시에서 구체적인 제약 조건을 잊고 더 포괄적이지만 틀린 패턴을 선택하는 오류를 보였으며, 이는 모델 업데이트 과정에서 추론 및 맥락 파악 능력의 퇴화 가능성을 시사합니다.

클로드 오푸스 4.7 벤치마크